Apprentissage par imitation dans un cadre batch , off - policy et sans modèle
نویسندگان
چکیده
Résumé : Ce papier traite le problème de l’apprentissage par imitation, c’est à dire la résolution du problème du contrôle optimal à partir de données tirées de démonstrations d’un expert. L’apprentissage par renforcement inverse (IRL) propose un cadre efficace pour résoudre ce problème. En se basant sur l’hypothèse que l’expert maximise une fonction de valeur, l’IRL essaie d’apprendre la récompense qui définit cette dernière à partir de trajectoires d’exemple. Beaucoup d’algorithmes d’IRL font l’hypothèse de l’existence d’unn approximateur linéaire pour la fonction de récompense et calculent l’attribut moyen (le cumul moyen pondéré des fonctions de base, relatives à la paramétrisation linéaire supposée de la récompense, évaluées en les états d’une trajectoire associée à une certaine politique) via une estimation de Monte-Carlo. Cela implique d’avoir accès à des trajectoires complètes de l’expert ainsi qu’à au moins un modèle génératif pour tester les politiques intermédiaires. Dans ce papier nous introduisons une méthode de différences temporelles, LSTD-μ, pour calculer cet attribut moyen. Cela permet d’étendre l’apprentissage par imitation aux cas batch et off-policy.
منابع مشابه
Apprentissage par démonstrations : vaut-il la peine d’estimer une fonction de récompense?
Résumé : Cet article propose une étude comparative entre l’Apprentissage par Renforcement Inverse (ARI) et l’Apprentissage par Imitation (AI). L’ARI et l’AI sont deux cadres de travail qui utilisent le concept de Processus Décisionnel de Markov (PDM) et dans lesquels nous cherchons à résoudre le problème d’Apprentissage par Démonstrations (AD). L’AD est un problème où un agent appelé apprenti c...
متن کاملFiltrage bayésien de la récompense
Résumé : Une large variété de schémas d’approximation de la fonction de valeur a été appliquée à l’apprentissage par renforcement. Cependant, les approches par filtrage bayésien, qui se sont pourtant montrées efficaces dans d’autres domaines comme l’apprentissage de paramètres pour les réseaux neuronaux, ont été peu étudiées jusqu’à présent. Cette contribution introduit un cadre de travail géné...
متن کاملSLEMC : Apprentissage semi-supervisé enrichi par de multiples clusterings
Résumé. La tâche de classification supervisée consiste à induire un modèle de prédiction en utilisant un ensemble d’échantillons étiquetés. La précision du modèle augmente généralement avec le nombre d’échantillons disponibles. Au contraire, lorsque seuls quelques échantillons sont disponibles pour l’apprentissage, le modèle qui en résulte donne généralement des résultats médiocres. Malheureuse...
متن کاملUn système de prédiction spectrale pour une connectivité permanente dans le cadre du suivi en temps réel de patients
Résumé. Le suivi régulier des signes vitaux garantit un traitement préventif des pathologies courantes chez une personne, lui assurant ainsi un meilleur état de santé. La majorité des solutions proposées dans ce contexte, repose sur un ensemble de capteurs sans fil hétérogènes équipant le patient et son environnement. L’urgence des transmissions de données médicales générées par ces capteurs, a...
متن کاملVers une Théorie du Test des programmes à contraintes
Tout processus de développement logiciel effectué dans un cadre industriel inclut désormais une phase de test ou de vérification formelle, y compris pour le développement des programmes à contraintes. Notre travail vise à poser les jalons d’une Théorie du test des programmes à contraintes qui puisse servir de socle à cette vérification. Cette nouvelle théorie est également motivée par le dévelo...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2011